第1课 强化学习在解决什么问题
目录
第1课:强化学习在解决什么问题
0. 一句话理解
强化学习要解决的是:智能体如何通过与环境交互,在没有直接标准答案的情况下,通过试错学会长期更优的决策。
1. 强化学习与监督学习的区别
监督学习
你拿到的是:
- 输入 $x$
- 标签 $y$
目标是学一个映射 $f(x)\approx y$。
强化学习
你拿到的不是“这一步该做什么”的标签,而是:
- 当前状态
- 采取动作后的环境反馈
- 奖励
- 下一状态
因此智能体要自己在交互中学习:
- 哪些动作好
- 哪些动作坏
- 怎样做才能让长期结果更优
2. 强化学习的三个核心特征
2.1 没有逐步标准答案
环境不会告诉你“此时最优动作就是 A”。
2.2 反馈往往是延迟的
你当前一步做得对不对,可能要很多步以后才看出来。
2.3 数据依赖于当前策略
你采取什么行为,会影响你后续能看到什么数据。
Note
这一点是 RL 和普通监督学习最根本的差别之一。3. 奖励 reward
奖励是环境给出的即时反馈。它回答的是:
你刚才这一步,短期来看值不值?
例如: - 到达目标:+10 - 撞墙:-1 - 每移动一步:-0.01
但要注意:
强化学习最终优化的不是“即时奖励最大”,而是“长期累计回报最大”。
关联:04-第3课 回报 价值函数与Q函数#1. 回报 Return
4. 策略 policy
策略是智能体的行为规则,即:
在某个状态下,怎样选择动作。
常记作:
$$ \pi(a\mid s) $$
它表示在状态 $s$ 下采取动作 $a$ 的概率。
两种常见策略
确定性策略
$$ a=\pi(s) $$
随机策略
$$ \pi(a\mid s) $$
这点与 07-强化学习公式与符号说明#2. π 到底是什么 直接相关。
5. 为什么不能只贪当前奖励
考虑两个动作:
- 动作 A:当前奖励高,但后续一般
- 动作 B:当前奖励低,但能带来更好的未来状态
如果只看眼前,容易选错。
因此强化学习要求智能体学会从长期角度评估行为。
这引出: - 04-第3课 回报 价值函数与Q函数 - 05-第4课 Bellman方程
6. 强化学习最小闭环
强化学习的基本交互可以写成:
$$ s_t \rightarrow a_t \rightarrow r_t, s_{t+1} $$
即: 1. 环境给出状态 $s_t$ 2. 智能体选动作 $a_t$ 3. 环境给出奖励 $r_t$ 与下一状态 $s_{t+1}$
这就是以后所有 RL 算法的最小工作单元。
7. 一个直观例子:机器人拿杯子
假设机器人要在房间里找到并拿起杯子。
它能做的动作包括:
- 向前走
- 左转
- 右转
- 伸手抓取
环境反馈: - 靠近杯子:+1 - 撞墙:-5 - 成功抓取:+100 - 每多走一步:-0.1
从这个例子中可以看到: - 任务是多步决策 - 奖励可能是延迟的 - 好动作不一定当前就显得“赚”
8. 初学者最应该建立的视角
看一个任务时,先问自己:
- 这是单步预测还是多步决策?
- 当前动作会不会影响未来局面?
- 当前反馈是不是稀疏或延迟?
- 目标是短期最优还是长期最优?
如果这四个问题的大部分答案都偏向“序列 / 未来 / 长期”,那就很可能是强化学习问题。
9. 易混淆点
奖励不等于价值
奖励是即时反馈;价值是长期前景评估。
见:04-第3课 回报 价值函数与Q函数#5. 奖励与价值的区别
策略不等于动作
策略是规则;动作是规则输出或从规则中采样得到的结果。
见:07-强化学习公式与符号说明#2. π 到底是什么
10. 我的理解(可自己补充)
- 监督学习更像“照答案做题”
- 强化学习更像“摸着石头过河”
- RL 难在:延迟奖励、探索利用冲突、数据会随策略变化
11. 复习问题
- 强化学习和监督学习最本质的区别是什么?
- 为什么 RL 不能只盯着当前奖励?
- 奖励、策略、动作这三个概念如何区分?
- RL 最小闭环是什么?